32 research outputs found

    Une cartographie de domaine pour guider la construction d'une ressource sémantique

    No full text
    National audienceDans cet article, nous proposons une méthode d'aide à l'ingénieur de la connaissance pour construire un modèle sémantique (terminologie ou ontologie) pour un domaine particulier. Cette méthode repose sur l'utilisation de ressources sémantiques disponibles pour représenter une vue synthétique du domaine à modéliser. La méthode proposée se fonde sur les phases suivantes : modularisation, alignement et raisonnement. Le texte sert de support aux différentes phases

    Evaluating semantic classes used for ontology building and learning from texts

    No full text
    International audienceA large effort has been devoted to the development of ontology building tools but it is still difficult to assess their strengths and limitations. Proposed evaluations are hardly reproducible and there is a lack of well- accepted protocols and data. In this paper, we propose to decompose the evaluation of ontology acquisition process into independent functionalities. We focus on the evaluation of semantic class acquisition considered as a main step in the ontology acquisition process. We propose an approach to automatically evaluate semantic classes of ontologies that offer lexical entries for concepts. It is based on the comparative paradigm (to a gold standard). Its main focus is to compare how similar the generated semantic classes are to the gold standard concerning the disposition of concepts frontiers. This comparison relies on the lexical level and on the hierarchical structure of the "gold" concepts. The propositions are implemented, two experiments are settled on different domains and prove that the measures give a more accurate information on quality of systems' performances

    Construction collaborative d'une Ressource Termino-Ontologique (RTO) pour le droit des collectivités territoriales

    No full text
    National audienceLa construction collaborative de ressources sémantiques est devenue un domaine de recherche en plein essor et une solution pratique notamment dans les grands projets de construction à grande échelle. En effet, contrairement à une construction centralisée, une construction collaborative permet de tracer les différents points de vue et de mettre en place une modélisation consensuelle. De plus, la construction collaborative permet de faire communiquer des acteurs aux profils différents dans une approche distribuée. Nous présentons dans ce papier une construction collaborative d'une RTO mise en place dans le projet LégiLocal, qui vise à proposer des fonctionnalités d'accès à l'information juridique locale pour les citoyens et les élus et personnels de mairie. Dans ce projet, une RTO est nécessaire pour permettre un accès sémantique ciblé qui prend en compte les aspects de réglementation locale en rapport avec le droit. La construction de cette RTO nécessite la collaboration de plusieurs acteurs du projet, avec des profils différents : des ingénieurs de la connaissance, des terminologues et des juristes (spécialistes en droit des collectivités). Nous terminons en présentant les deux scénarios de collaboration que nous mettons en place pour la construction de cette RTO dans le cadre du projet LégiLocal

    Détection et classification non supervisées de relations sémantiques dans des articles scientifiques

    No full text
    International audienceDans cet article, nous abordons une tâche encore peu explorée, consistant à extraire automatiquement l'état de l'art d'un domaine scientifique à partir de l'analyse d'articles de ce domaine. Nous la ramenons à deux sous-tâches élémentaires : l'identification de concepts et la reconnaissance de relations entre ces concepts. Une extraction terminologique permet d'identifier les concepts candidats, qui sont ensuite alignés à des ressources externes. Dans un deuxième temps, nous cherchons à reconnaître et classifier automatiquement les relations sémantiques entre concepts de manière non-supervisée, en nous appuyant sur différentes techniques de clustering et de biclustering. Nous mettons en oeuvre ces deux étapes dans un corpus extrait de l'archive de l'ACL Anthology. Une analyse manuelle nous a permis de proposer une typologie des relations sémantiques, et de classifier un échantillon d'instances de relations. Les premières évaluations suggèrent l'intérêt du biclustering pour détecter de nouveaux types de relations dans le corpus. ABSTRACT Unsupervised Classification of Semantic Relations in Scientific Papers In this article, we tackle the yet unexplored task of automatically building the "state of the art" of a scientific domain from a corpus of research papers. This task is defined as a sequence of two basic steps : finding concepts and recognizing the relations between them. First, candidate concepts are identified using terminology extraction, and subsequently linked to external resources. Second, semantic relations between entities are categorized with different clustring and biclustering algorithms. Experiences were carried out on the ACL Anthology Corpus. Results are evaluated against a hand-crafted typology of semantic relations and manually categorized examples. The first results indicate that biclustering techniques may indeed be useful for detecting new types of relations. MOTS-CLÉS : analyse de la littérature scientifique, extraction de relations, clustering, biclustering

    SemEval-2018 Task 7: Semantic Relation Extraction and Classification in Scientific Papers

    Get PDF
    International audienceThis paper describes the first task on semantic relation extraction and classification in scientific paper abstracts at SemEval 2018. The challenge focuses on domain-specific semantic relations and includes three different sub-tasks. The subtasks were designed so as to compare and quantify the effect of different pre-processing steps on the relation classification results. We expect the task to be relevant for a broad range of researchers working on extracting specialized knowledge from domain corpora, for example but not limited to scientific or bio-medical information extraction. The task attracted a total of 32 participants, with 158 submissions across different scenarios

    YaSemIR: Yet another Semantic Information Retrieval System

    No full text
    International audienceIn this paper we present YaSemIR, a free open-source Semantic Information Retrieval system based on Lucene. It takes one or more ontologies in OWL format and a terminology associated to each ontology in SKOS format to index semantically a text collection. The terminology is used to annotate concepts in documents, while the ontology is used to exploit the taxonomic information in order to expand these with their subsumers. YaSemIR is a flexible system that may be configured to work with different ontologies, on various types of documents

    Indexation sémantique de documents XML

    No full text
    Les documents XML, posent de nouveaux défis et imposent de nouvelles méthodes de traitement d'information. Ils présentent l'avantage de posséder une structure explicite qui facilite leur présentation et leur exploitation dans différents contextes. Cependant, très souvent, la majeure partie de l'information reste contenue dans les champs textuels. Il est donc devenu primordial de concevoir des méthodes permettant d'exploiter à la fois la structure et le contenu textuel de ces documents. Le Web sémantique repose sur la capacité de XML à définir des balises "personnalisées" et de standards pour décrire formellement la signification de laterminologie employée dans les documents Web. L'intérêt de l'utilisation de l'ontologie en Recherche d'information a redoublé avec le Web sémantique. Nous nous inscrivons dans cette optique en défendant la thèse qu'une description fine des documents est coûteuse et qu'il serait utile d'avoir une représentation intermédiaire pour retrouver les informations pertinentes. L'objectif de nos travaux est de proposer des méthodes qui mettent à profit la structure et le contenu sémantique des documents. Le modèle que nous proposons repose sur : 1. un modèle générique qui permet d'indexer des documents qui possèdent des structures hétérogènes et qui permet de retrouver et d'apparier ces structures. 2. un langage de requête qui à la différence des langages de requêtes qui existent est plus intuitif et repose sur une syntaxe XML. Notre langage permet de poser des requêtes vagues sur la structure et sur le contenu ainsi que des requêtes simples mots-clés. La prise en compte de la sémantique est totalement transparente à l'utilisateur.XML documents address new challenges and impose new methods for accessing information. They present the advantage of an explicit structure which facilitates their presentation and their exploitation in various contexts. The aim of Semi-structured Information Retrieval (SIR) is to take this structure into account and to integrate it to the representation of the content of semi-structured documents. The Semantic Web (SW) relies on the capacity of XML to define personalised tags and standards to describe the signification of the terminology used by means of formal ontologies. The use of ontologies in Information Retrieval has gained interest with the SW. We aim at showing that it is useful to have an intermediate representation of documents as a formal description of the textual content is expensive.In this work we propose new methods that take advantage of the structure and semantics of the documents. The proposed model relies on: 1. a generic model which allows to index documents with heterogeneous structure and provides a matching of these structures.2. a query language which, unlike the existing query languages, is intuitive and has an XML syntax. The proposed language enables to ask requests on semi-structured documents by keywords and with vague conditions on structure. The semantics are handled in a completely transparent way for the user.ORSAY-PARIS 11-BU Sciences (914712101) / SudocSudocFranceF

    LIPN@DEFT2016 : Annotation de documents en utilisant l’Information Mutuelle.

    No full text
    National audienceCet article décrit le système proposé par le LIPN pour participer à l'édition 2016 pour le Défi Fouille de Textes. La tâche consiste à proposer des mots clés pour indexer des notices bibliographiques. Quatre domaines de spécialités ont été proposés : linguistique, sciences de l’information, archéologie et chimie. Nous avons proposé trois approches : une approche qui s'appuie sur le volet terminologique des thesaurus, une approche fondée sur l'information mutuelle et une approche qui fusionne les deux. Les mêmes approches ont été appliquées aux quatre domaines de spécialité
    corecore